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摘 ， 要 : [目的 /意义 ] 针对 当前 科研 人 员 无 法 从 海量 的 网 络 科技 信息 中 及 时 甄别 有 情报 价值 的 情报 内 容 的 问题 ,建立 一 
套 综 合 性 情报 价值 计算 方法 ,从 而 对 网 络 科技 信息 的 情报 价值 进行 计算 判断 ,最 终 帮 助 科研 人 员 快 速 而 准确 地 发 
现 有 情报 价值 的 网 络 科技 信息 。[ 方 法 /过 程 ] 综合 考虑 情报 外 部 特征 与 文本 语义 内 容 特 征 ,利用 深度 学 习 ( 预 训 
练 语言 模型 ) BERT 方法 构建 基于 文本 语义 内 容 特征 的 情报 价值 计算 模型 ,利用 深度 学 习 模 型 的 预测 输出 完成 打 

于 分 ,并 结合 基于 情报 外 部 特征 的 原始 计算 方法 得 到 最 终 的 综合 评价 得 分 。[ 结果 /结论 ] 实验 结果 显示 ,基于 文本 

语义 内 容 特征 的 情报 价值 计算 模型 可 以 对 情报 按照 情报 价值 得 分 进行 有 效 的 星 级 区 分 ,弥补 了 基于 情报 外 部 特 

二 = 征 的 原始 计算 模型 中 星 级 区 分 度 差 的 问题 ,最 终 的 综合 评价 结果 表明 本 文 提出 的 情报 价值 计算 模型 在 实际 应 用 

ST 中 也 能 够 很 好 地 满足 科研 人 员 的 需求 。 
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COACE C , TAEA BBE FBO APNG a 
EPA M PA ARH fA E FER ZI ZS EIU I SE RE R E e RE 
SRE H A RDL EE TE EL 
PPE TE TBE A, 2 RAE FU E ZAE RER Y BEDEA 
员 必 时 发 现 高 价值 的 情报 信息 带 来 了 困难 与 挑战 。 
因此 如 何 从 海量 的 网 络 科技 信息 中 快速 而 准确 地 又 
别 晤 有 情报 价值 的 情报 内 容 也 成 为 情报 学 研究 的 重 
要 方向 。 

网 络 科技 信息 情报 价值 计算 是 属于 网 络 信息 资源 
评价 研究 的 一 种 。 在 邹 益 民 的 研究 中 ,情报 价值 "被 
定义 为 ;情报 价值 是 指 情报 与 用 户 发 生 联系 时 ,情报 
所 具有 的 对 人 有 用 的 属性 ,是 情报 的 客观 属性 与 用 户 
需求 的 耦合 "本 文中 沿用 这 一 概念 的 定义 ,依据 此 
定义 ,网 络 科技 信息 情报 价值 计算 就 是 通过 某 种 计算 
方法 来 获取 网 络 科 技 信息 所 具有 的 对 人 有 用 的 属性 
值 。 可 以 发 现 ,对 于 情报 价值 计算 来 说 ,最 重要 的 两 个 
因素 就 是 情报 本 身 的 客观 属性 与 用 户 需求 ,二 者 缺 一 
不 可 。 事 实 上 ,笔者 通过 对 情报 价值 计算 相关 研究 进 


行 调研 ,发 现 当 前 网 络 科技 信息 情报 价值 计算 方法 主 
要 也 是 从 情报 外 部 特征 和 用 户 行为 特征 这 两 个 方面 开 
展 。 前 者 主要 从 指标 体系 的 构建 入 手 ,关注 网 络 科技 
这 息 的 外 在 特征 ,如 信息 来 源 、 客 观 性 、 及 时 性 等 , 利 
定性 或 定量 的 方式 来 完成 评价 。 后 者 则 从 情报 的 关 
注 对 象 人 手 , 分 析 用 户 群 体 的 类 别 特性 ”“ ,从 而 结合 不 
同 的 用 户 偏好 来 判断 网 络 科技 信息 的 情报 价值 。 无 论 
是 基于 指标 体系 分 析 外 部 特征 还 是 基于 行为 特征 分 析 
用 户 偏好 , 当前 在 深入 挖掘 情报 内 容 本 身 的 语义 信息 
方面 还 存在 不 足 。 随 着 自然 语言 处 理 等 新 技术 的 发 
展 ,对 于 文本 内 容 的 深层 次 语义 挖掘 的 相关 方法 越 来 
越 成 熟 。 文 本 内 容 是 网 络 科技 信息 的 客观 存在 形式 ， 
文本 的 语义 特征 对 于 网 络 科 技 信息 的 情报 价值 判断 也 
具有 重要 参考 意义 。 

自然 语言 处 理 技术 的 蓬勃 发 展 得 益 于 深度 学 习 方 
法 的 出 现 。 深 度 学 习 (deep learning) 的 概念 由 G. 下 . 
Hinton 等 ”于 2006 年 提出 ,作为 一 种 基于 无 监督 特征 
学 习 和 特征 层次 结构 的 学 习 方 法 ,深度 学 习 通 过 模拟 
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人 类 大 脑 的 神经 网 络 进行 分 析 学 习 , 解 决 了 很 多 复杂 
的 模式 识别 难题 。 网 络 科技 信息 的 情报 分 析 研 究 面临 
海量 数据 的 挑战 ,探讨 深度 学 习 技 术 在 网 络 科 技 信 息 
中 的 应 用 方法 也 是 大 有 必要 的 。 

笔者 尝试 基于 深度 学 习 方法 中 的 BERT 模型 ,对 
网 络 科技 信息 的 文本 语义 内 容 特征 进行 情报 价值 评估 
计算 ,并 结合 传统 的 基于 外 部 特征 的 情报 价值 计算 方 
法 ,最 终 形成 一 套 综合 性 情报 价值 计算 方法 。 在 能 源 
领域 科技 信息 监测 平台 中 ,对 本 文 所 提出 的 计算 方法 
进行 了 实际 应 用 ,并 对 应 用 效果 进行 了 评价 。 


1 情报 价值 计算 方法 相关 研究 


目前 国内 外 学 者 关于 网 络 科技 信息 情报 价值 计算 
加 法 主要 可 以 分 为 基于 情报 外 部 特征 的 方法 和 基于 用 
户 得 为 特征 的 计算 方法 。 
Lage 基于 情报 外 部 特征 的 计算 方法 
< 二 情报 外 部 特征 在 这 里 主要 是 指 网 络 科技 信息 在 生 
PE 明示 以 及 传播 等 过 程 中 附带 的 一 些 外 在 属性 ,例如 


题 对 象 . 情 报 科 技 相 关 度 和 情报 主题 相关 度 等 5 个 指 
标 , 并 对 相关 指标 进行 细 化 形成 31 个 二 级 指标 。 在 
这 些 指标 中 , 既 包 含 了 情报 资源 的 外 部 特征 ,也 包含 
了 部 分 情报 内 容 特征 ,形成 了 对 情报 价值 的 综合 评 
价 方法 。 这 一 方法 率先 将 情报 外 部 特征 进一步 深入 
到 主题 , 即 情报 的 文本 内 容 维 度 。 笔 者 将 这 种 基于 
文本 内 容 特 征 的 方法 进一步 深入 ,通过 深度 学 习 方 
法 学 习 文 本 内 容 的 上 下 文 特征 ,将 文本 内 容 与 情报 
价值 关联 起 来 。 
1.2 基于 用 户 行为 特征 的 计算 方法 

情报 服务 人 员 对 网 络 科技 信息 开展 动态 监测 与 分 
析 , 最 终 目 的 是 服务 用 户 ,所 提供 的 情报 服务 是 否 符合 
目标 用 户 的 信息 需求 决定 了 信息 服务 的 效果 与 质量 。 
因此 ,通过 分 析 用 户 的 信息 行为 特征 ,有 针对 性 地 提供 
情报 服务 也 是 情报 工作 人 员 的 重点 努力 方向 。 张 洋 
等 ”通过 对 网 络 科技 信息 资源 评价 的 相关 研究 进行 综 
述 ,提出 “要 树立 以 用 户 为 中 心 的 评价 理念 "。 在 对 网 
络 科 技 信息 进行 情报 价值 计算 时 ,大 量 的 研究 者 也 结 


信和 部 来 源 . 信 息 类 型 .发 布 时 间 语言 .长 度 等 。 最早 的 


A 比 判 性 思考 (critical thinking) 版 权 (copyright) , | 
SCC citation ) J $f VE ( continuity ) 审查 制度 (censor- 
ship) .可 连接 性 (connectivity ) , A] Et HE ( comparability ) 
ABEL (context) 。 之 后 的 研究 者 又 在 此 基础 上 补充 了 
(ROU SCA ESR .评论 四 .时效 性 中 原创 性 [9 
等 志 随 着 网 络 信息 技术 的 发 展 ,基于 网 络 链接 分 析 技 
术 的 评价 方法 也 出 现 ,其 中 最 受 关注 的 是 由 L. Page 
等 提出 的 Pagerank 算法 ,通过 分 析 网 页 之 间 的 超 链 
接 关 系 ,来 计算 网 页 内 容 的 重要 性 ,网 络 信息 关联 的 链 
接 数 越 多 则 反映 该 信息 的 重要 程度 越 高 ,这 与 情报 学 
中 的 引用 关系 分 析 类 似 , 其 主要 利用 了 网 络 信息 的 超 
链接 这 一 外 部 特征 。 相 似 的 方法 还 有 J. M. Kleinberg 
提出 的 网 页 排序 算法 HITS’ 等。 在 近 几 年 的 研究 中 ， 
人 研究 者 更 加 注重 指标 体系 构建 的 科学 性 与 完备 性 ,如 
赵 玉 遂 等 应 用 德尔 非法 ,通过 专家 咨询 的 方式 建立 
网 络 健康 信息 质量 评价 指标 ,最 终 明确 了 信息 特性 、 媒 
体 特性 和 发 布 特性 3 个 一 级 指标 以 及 信息 准确 性 、 页 
面 设 计 和 编辑 的 权威 性 等 15 个 二 级 指标 。 邓 胜利 


合用 户 的 行为 特征 进行 了 探究 。 

早 在 2000 年 , 赵 继 海 ”提出 的 8 项 评价 指标 中 ， 
就 把 用 户 (audience) 作为 一 项 单独 的 指标 。 对 于 用 户 
行为 特征 的 考虑 更 多 地 是 体现 在 信息 检索 系统 中 的 资 
源 评价 与 排序 中 ,例如 H. Karodiya 等 ”通过 对 检索 系 
统 的 用 户 进 行 分 类 ,在 对 检索 结果 进行 排序 时 结合 
户 的 分 类 得 到 不 同类 别 用 户 的 排序 结果 。S. L. Price 
Sl] M. Han 等 中 LL. Tamine-Lechan 等 "的 研究 都 
通过 探究 用 户 的 兴趣 与 偏好 ,尝试 构建 个 性 化 的 检索 
服务 。 在 近 几 年 的 研究 中 , 王 晓 丽 等 ”也 提出 了 网 络 
言 息 资 源 评价 指标 构建 的 原则 ,其 中 的 导向 性 原则 就 
提出 用 户 年 龄 . 认 知 习惯 以 及 文化 程度 导致 的 不 同 用 
户 对 网 络 信息 的 需求 不 同 。 王 晰 阐 等 ”的 研究 中 显 
示 了 不 同 网 络 社 群 用 户 在 信息 交互 中 的 效果 差异 , 进 
一 步 说 明了 不 用 用 户 群 体 特征 对 于 网 络 信息 利用 价值 
的 评判 具有 较 大 影响 。 

用 户 一 般 更 加 关注 信息 内 容 本 里 ,有 研究 者 通过 
构建 基于 二 元 分 类 的 信息 过 滤 模 型 ,根据 用 户 的 偏好 
对 信息 进行 分 类 过 滤 , 从 而 提供 更 有 情报 价值 的 信息 。 
例如 R. Bing ”和 N. Vatani 等 的 研究 中 都 关注 了 对 
信息 内 容 中 的 词 的 特征 ,通过 分 析 词 频 、 同 义 词 等 构建 


等 ”的 研究 从 用 户 视角 出 发 ,通过 用 户 调研 的 方式 ， 


构建 了 由 内 容 和 设计 2 个 一 级 指标 及 7 个 二 级 指标 、7 
个 三 级 指标 组 成 的 评价 标准 框架 。 
刘建华 等 ”提出 了 情报 来 源 、 情 报 类 型 .情报 主 


户 兴趣 模型 ,将 信息 内 容 与 用 户 偏 好 关联 起 来 。 笔 
者 同样 借鉴 了 这 样 一 种 基于 信息 过 滤 的 思想 ,将 网 络 
科技 信息 文本 的 内 容 与 用 户 的 关注 度 关联 起 来 ,通过 
收集 用 户 认 为 有 情报 价值 的 文本 与 无 情报 价值 文本 作 
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为 训练 集 ,从 而 构建 信息 过 滤 的 二 分 类 模型 。 
2 研究 方法 

目前 ,许多 网 络 科 技 信息 情报 价值 计算 分 析 方 法 
通常 根据 情报 的 外 部 特征 ,如 情报 来 源 的 权威 性 、 情 报 
的 类 型 等 构建 相应 的 指标 ,从 而 进行 情报 价值 的 判断 。 
这 些 外 部 特征 在 一 定 程度 上 反映 了 情报 的 价值 ,如 来 
源 于 政府 部 门 的 情报 资源 通常 具有 和 较 高 的 价值 ,外 部 
特征 得 分 较 高 。 但 是 这 种 方法 并 没有 对 情报 的 文本 语 
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SEK EAT A ATTA a BO AEG 
AIA A Transformer 超 强 的 文本 语义 ,句法 特征 挖 所 
能 兄 构 建 基于 文本 语义 内 容 特征 的 情报 价值 计算 模 
型 己 标注 语 料 集 是 机 器 学 习 模 型 进行 监督 学 习 不 可 或 
fT ap ea ne 
者 亚 先 基于 情报 资源 的 外 部 特征 得 分 自动 构建 情报 价 
值 计 算 的 训练 数据 集 ,获取 有 情报 价值 的 网 络 科技 信 
息 和 无 情报 价值 的 网 络 科 技 信 息 。 然 后 ,笔者 将 情报 
价值 计算 定义 为 二 分 类 任务 , 即 预 测 网 络 科技 信息 为 
有 情报 价值 或 者 无 情报 价值 ,通过 模型 对 情报 资源 在 
有 情报 价值 类 别 的 预测 置信 度 得 到 情报 资源 的 文本 语 
义 重要 度 得 分 ,最 后 综合 文本 语义 重要 度 得 分 以 及 外 
部 特征 得 分 得 到 最 终 的 情报 价值 得 分 。 

2.1 ”情报 价值 计算 语 料 构建 
依托 于 笔者 项 目 组 开发 的 领域 科技 情报 知识 服务 

云 平台 ,笔者 构建 了 情报 价值 计算 模型 训练 所 需 的 语 
料 集 。 领 域 科 技 情报 知识 服务 云 平台 从 情报 工作 的 需 
求 与 工作 流程 出 发 ,自动 帮助 情报 人 员 从 海量 的 网 络 
科技 信息 资源 中 发 现 最 新 最 重要 的 科技 资源 ,借助 信 
息 抽 取 自动 分 类 .自动 摘要 .文本 挖掘 等 方法 ,自动 计 


义 内 容 进行 深入 探究 。 针 对 这 个 缺陷 ,笔者 提出 融合 
文本 语义 内 容 特征 的 情报 价值 计算 模型 ,着眼 于 情报 
的 文本 语义 内 容 层面 ,在 情报 来 源 的 权威 性 ,情报 的 类 
型 ,情报 中 内 容 监测 对 象 的 重要 程度 ,情报 的 科技 相关 
度 和 情报 的 主题 相关 度 5 个 外 部 特征 维度 的 基础 之 
上 ,增加 情报 文本 语义 内 容 维度 。 并 且 综 合 所 有 的 评 
佑 指标 得 到 最 终 情报 价值 计算 的 结果 。 融 合 文本 语义 
内 容 特征 的 情报 价值 计算 模型 技术 路 线 如 图 1 所 示 : 


tt 
eB A 


有 情报 价值 的 无 情报 价值 的 
网 络 科技 信息 网 络 科技 信息 


1 情报 价值 计算 模型 技术 路 线 


算 分 析 科 技 资源 中 包含 的 重要 科技 对 象 .重要 科技 术 
语 ,这 些 信息 对 构建 情报 价值 计算 模型 的 语 料 集 有 重 

由 于 领域 专家 评 佑 情报 价值 费时 费力 ,而 且 不 同 
专家 之 间 可 能 存在 意见 分 歧 , 构 建 大 规模 人 工 标注 的 
情报 价值 计算 语 料 集 可 行 性 不 高 。 针 对 这 个 问题 , 笔 
者 提出 基于 情报 外 部 特征 的 语 料 集 构建 方法 ,充分 利 
用 情报 的 来 源 权威 性 、 人 情报 类 型 .主题 相关 度 、 监 测 对 
象 的 权威 性 .科技 相关 度 这 5 个 维度 来 自动 构建 情报 
价值 计算 的 语 料 集 。 具 体 而 言 ,这 些 外 部 特征 是 由 情 
报 分 析 人 员 根 据 经 验 知 识 制定 的 ,笔者 认为 情报 的 外 
部 特征 一 定 程 度 上 揭示 了 情报 资源 的 重要 程度 ,可 设 
定 重 要 度 阔 值 来 划分 有 情报 价值 的 网 络 科技 信息 和 无 
情报 价值 的 网 络 科技 信息 ,初步 地 自动 构建 一 个 大 规 
模 的 情报 资源 计算 数据 集 。 

情报 价值 计算 外 部 特征 的 框架 如 图 2 所 示 ,基于 
上 述 的 5 个 维度 可 以 自动 化 地 计算 情报 价值 的 外 部 特 
征 得 分 。 在 领域 科技 情报 知识 服务 云 平台 上 搭建 的 能 
源 领 域 科 技 信息 监测 平台 采用 基于 外 部 特征 得 分 的 情 
报价 值 用 于 衡量 情报 的 重要 度 ,并 反馈 给 用 户 。 这 种 
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78. 


Chine a Se 


Bashi B&F, A PT F iE HEF W a HE — E FEE 
上 较为 满意 。 因 此 ,笔者 选用 平台 中 经 过 人 工 编译 的 
报道 以 及 外 部 特征 重要 度 阔 值 研 0.6 的 报道 作为 有 情 
报价 值 的 网 络 科技 信息 ,没有 经 过 人 工 编 译 的 报道 作 


| 监测 本 体 中 定义 的 重要 对 象 


情报 中 内 容 监测 对 象 的 权威 性 
情报 的 主题 相关 度 
情报 的 科技 相关 度 


领域 监测 本 体 、 领 域 主题 词 、 领 域 
热点 词 


科技 主题 词 


304.00412v1 


J 数 据 集 统计 数据 如 表 1 所 示 , 经 统计 ,总 共 得 到 
0 条 情报 ,随机 打 乱 顺序 后 按照 8:2 比例 划分 训 
AS PUA | MAR PA 17 959 条 情报 ,测试 集中 
共有 4 491 条 情报 。 训 练 集 中 有 情报 价值 的 网 络 科技 
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感 和 无 情报 价值 的 网 络 科技 信息 的 比值 为 9 962: 
7 997 ,分 布 较为 均衡 。 训 练 集 和 测试 集中 总 计 有 情报 
价 惫 的 网 络 科技 信息 共 12 453 条 ,无 情报 价值 的 网 络 
科 团 信息 9 997 条 。 笔 者 将 有 情报 价值 的 网 络 科技 信 
息 标签 赋予 1 ,无 情报 价值 的 网 络 科技 信息 标签 赋予 
0 ,构建 二 分 类 模型 的 初始 语 料 。 

R1 数据 集 统计 数据 


情报 价值 的 网 络 “有 情报 价值 的 网 
训练 集 7 997 9 962 17 959 
测试 集 2 000 2 491 4 491 
合计 9 997 12 453 22 450 


2.2 ”模型 架构 

2018 年 预 训练 语言 模型 BERT ”的 提出 ,引起 了 
自然 语言 处 理 领 域 的 广泛 关注 。 许 多 研究 者 发 现 , 在 
自然 语言 处 理 任务 中 使 用 预 训练 语言 模型 可 以 使 下 游 
模型 性 能 得 到 较 大 的 提升 ”” 。BERT 模型 通过 在 维 
基 百 科 等 大 规模 无 标注 文本 上 使 用 2 个 预 训 练 任务 : 
掩藏 语言 模型 (masked language model, MLM ) #49 $B 


情报 价值 计算 
外 部 特征 


为 无 情报 价值 的 网 络 科 技 信 息 构建 监督 学 习 所 需 的 数 
据 集 。 这 样 可 以 间接 将 领域 本 体 、 领 域 主题 词 .热点 
词 .科技 主题 词 .重要 监测 对 象 等 信息 集成 到 模型 中 。 


机 构 性 质 门 | 研究 机 构 


情报 来 源 的 权威 性 


图 2 情报 价值 计算 外 部 特征 框架 


句子 预测 (next sentence prediction , NSP) 任务 对 语言 模 
型 进行 预 训练 ,学 习 到 了 较 好 的 通用 的 语言 表示 ,迁移 
到 下 游览 督学 习 任 务 对 于 提升 模型 性 能 有 很 大 程度 的 
帮助 。 另 外 , Transformer 是 一 种 超 强 的 特征 抽取 器 , 通 
过 自 注意 力 机 制 ,一 定 程度 上 解决 了 长 短 时 神经 网 络 
的 长 距离 依赖 问题 ,能够 对 文本 的 语义 、 句 法 等 特征 进 
行 很 好 的 建 模 。 笔 者 旨 在 充分 利用 BERT 无 监督 预 训 
练 和 Transformer 模型 架构 的 优势 构建 情报 价值 计算 模 
型 ,同时 将 情报 的 外 部 资源 特征 融入 到 模型 中 辅助 决 
策 。 笔 者 提出 了 基于 文本 语义 内 容 的 情报 价值 计算 模 
型 ,其 架构 见 图 3。 

对 于 基于 文本 语义 内 容 的 情报 价值 计算 模型 而 
言 ,对 于 输入 模型 的 情报 资源 首先 进行 文本 向 量化 ,将 
文本 中 的 每 个 字 上 映射 到 高 维 的 向 量 空间 中 ,获取 字 的 
表示 。 值 得 一 提 的 是 ,在 每 句 话 之 前 添加 [CLS ] 标识 
符 ,用 该 标识 符 的 向 量 表示 作为 整 句 话 的 向 量 表示 。 
然后 输入 到 由 12 层 encoder HEHE AY Transformer 模 
型 中 ,获取 [CLS] 标 识 符 的 最 终 向 量 表 示 ,输入 到 前 馈 
神经 网 络 并 进行 SoftMax 分 类 ,得 到 BERT 模型 对 于 无 
情报 价值 和 有 情报 价值 两 个 类 别 的 置信 度 得 分 。 使 用 
BERT 模型 在 有 情报 价值 类 别 的 预测 得 分 作为 情报 的 
文本 语义 内 容 得 分 ,与 情报 的 外 部 特征 得 分 按照 0.7: 
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0G 芍 比重 进行 加 权 , 得 到 最 终 m : 
HOG ST DEERE RE ET 
UE, 0.9 三 最 终 情报 价值 得 分 三 1 时 ， een 
HEER 4 0.8 三 最 终 情报 价值 得 分 <0.9 时 ,情报 
BEE NBR; 当 0.3 三 最 终 情报 价值 得 分 <0. 8 
时 6 情报 重要 度 为 三 星 级 ; 当 0.1 三 最 终 情报 价值 得 分 
< 人 时 ,情报 重要 度 为 二 星 级 ; 当 0 三 最 终 情报 价值 
HA <0. 1 时 ,情报 重要 度 为 一 星 级 。 


3 ”实验 及 结果 
笔者 选 定 能 源 领域 作为 实验 ,构建 情报 价值 计算 


crawlRecordId, filteredTitle, text EmMa 
3298568. 0, DP ANZA SEAE DIREAIN KEE, 呼和浩特 赛 军区 力 


0 快 锅 炉 煤 
3298570.0, 煤炭 业 出 路 在 清洁 高 效 利用 ， 和 | 


3298576.0, 国家 税务 总 局 .国家 能 源 局 .关于 落实 煤炭 资源 税 优惠 


3298579. 0, 四川 省 全 面 停 征 省 级 以 下 涉 煤 收费 项 目 ， to eRe HSK FL ， 
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图 3 ”基于 文本 语义 内 容 的 情报 价值 计算 模型 架构 
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ee 
能 会 影响 对 情报 文本 内 容 的 语义 分 析 。 针 对 品 

题 , 笔 者 首先 对 文本 进 Sean aies 
分 析 ,制定 了 一 系列 的 规则 来 清洗 其 中 的 噪声 。 具 体 
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张 敏 ， 刘欢， 丁 良 萍 ， 等 . 基于 深度 学 习 的 网 络 科技 信息 情报 价值 计算 (enn ena eG 
Ts 
(1) Woe“ 加载 更 多 :” 或 “参考 资料 :” 或 “原文 出 (3) 如 果 一 句 话 中 出 现 “ 发 布 时 间 ” 或 “字号 ”或 
处 : ”或 "推荐 阅读 :” 或 “责任 编辑 :” 或 “下 一 篇 :” 或 “来 源 :”, 则 将 该 句 话 中 的 “点 击 收藏 " 雁 换 为 空 ; 
“上 一 篇 :” 出 现在 句子 中 , 则 删除 该 句 话 ; (4) 如 果 人 句子 长 度 <5, 则 删除 该 句 话 。 
(2) 如 果 一 句 话 以 “来 源 : ”或 “编者 按 : ”或 “推荐 经 过 清洗 之 后 ,将 外 部 特征 得 分 三 0.6 的 情报 赋 


CAJ 下 载 " 或 “PDF 下 载 . "或 “HTML 阅读 "或 “下 载 频 | 予 标签 1 ,得 分 <0.6 的 情报 赋予 标签 0, 得 到 BERT 模 
次 ”或 “不 文 持 迅雷 ”或 “免费 订阅 ”开头 , 则 删除 该 名 ”型 训练 的 数据 集 ,格式 如 图 5 所 示 。 共 得 到 训练 集 
话 ; 17 959 条 ,测试 集 4 491 条 。 


g= oip ee a eco eee :韩国 铁路 研究 所 正在 :参加 :国家 运输 部 的 铁路 技术 研究 项 目 .， 将 开发 氧 能 铁路 列车 。 该 款 列 车 是 基于 
1 ee 互联 网 + 电力 改革 ， 谁 在 风口 上 ? 随 着 电力 体制 改革 的 推进 ， 原 本 垄断 输 配 售 三 :去 环 节 的 电网 公司 ， 将 释放 售 电 环节 ， 并 且 重 新 厘定 输 杯 
2 ;中 电 开 第 六 届 理 事 会 第 六 次 会 议 5 月 25 日 ， 中 电 联 第 六 届 理 事 会 第 六 次 会 议 在 北京 召 杨 昆 常 务 副 理事 长 报告 了 中 电 联 一 年 来 的 工作 情商 
3 Ee ts LRH BE AAG HE SE A 择 摘 要 : 420A, Fa SPE LS LE AED D A E DE. 心 举行 。 《能 源 》 放 
4 一 > 到 2040 年 ， 全 球 风 电 装 机 容量 将 增长 15 倍 国际 能 源 机 构 (TEA) 周 五 表示 ， 到 2040 年 ， 海 上 风电 业务 将 有 望 达到 1 万 亿美 元 的 规模 ， 全 球 风 电 装 机 容量 ， 
5- 一 推广 项 目 ---- 中 国 科 学 院 电 工 研究 所 。 .推广 项 目 .合作 动态 .推广 项 目 .技术 需求 .所 属 公 司 .. 推广 项 目 .." 电 工 研究 所 科研 成 果 汇 编 [2016-08-1! 
6 一 波兰 拟 推 能 源 新 政 . 力争 达到 欧盟 减 碳 目标 据 路 透 社 报道 ， a ae 《2040 年 能 源 政策 》 提 出 ， 将 不 断 降 低 对 煤炭 的 依赖 ， 以 期 到 2030 征 
7 一 财政 部 公布 2016 年 钢铁 煤炭 去 产能 拟 激励 省 份 名 单 -新 闻 - 能 源 资讯 -中 国 能 源 网 。 今 日 ， 财 政 部 网 站 发 布 《2016 年 钢铁 煤炭 去 产能 拟 激励 省 份 名单 公 
8 -一 加 拿 大 森 科 能 源 预 计 2020 年 石油 产量 或 将 增加 5s 加 拿 大 森 科 能 源 公 司 周 aati 其 2020 年 石油 产量 将 增长 5$， 但 表示 ， 由 于 受到 艾 伯 塔 省 削减 产量 | 
9 -一 亚洲 洁 能 资本 与 汰 巢 共 同 打 造 最 "绿色 “光伏 屋 项- 新闻- 能 源 资讯 -中 国 能 源 网 。 根 据 此 次 签署 的 协议 ， 亚 洲 洁 能 资本 将 为 雀巢 位 于 天 津 葡 县 的 生产 者 


图 5 清洗 后 的 数据 集 格式 


3. > 实验 及 结果 基于 文本 语义 内 容 特征 的 情报 价值 基于 外 部 特征 的 情报 价值 计算 
计算 模型 情报 星 级 统计 结果 模型 情报 星 级 统计 结果 


ERT 模型 在 4 491 条 测试 集 上 测试 的 准确 率 为 
9 人 77% 。 笔 者 将 BERT 模型 的 情报 价值 预测 得 分 与 
外 缉 特 征 得 分 进行 加 权 综 合 之 后 得 到 最 终 的 情报 预测 
得 络 , 然 后 根据 得 分 为 情报 划分 星 级 。 为 了 测试 基于 
Di 看 义 内 容 特征 的 情报 价值 计算 模型 的 实验 效果 ， 

将 甚 与 基于 外 部 特征 的 情报 价值 计算 模型 的 效果 
进 得 对 比 。 表 2 展示 了 两 个 模型 的 情报 星 级 评价 标 


WN 6 统计 结果 对 比分 析 
> 表 2 情报 星 级 评价 标准 


值 的 网 络 科技 信息 来 辅助 情报 人 员 分 析 决 策 ,这 也 反 


基于 文本 语义 内 容 特征 的 情报 。 基于 外 部 特征 的 情报 价值 $ Ta 

价值 计算 模型 评价 阔 值 计算 模型 评价 阔 值 映 了 基于 外 部 特征 的 情报 价值 计算 模型 的 领域 局 限 
Sax (0,0.1) (0,0.6) 性 。 而 基于 文本 语义 内 容 特征 的 情报 价值 计算 模型 可 
SE [90430537 10300773 以 对 情报 进行 有 效 的 星 级 区 分 ,对 有 情报 价值 的 网 络 
~~ ADN sil 科技 信息 和 无 情报 价值 的 网 络 科 技 信息 的 区 分 度 更 
四 星 级 [0.8,0.9) [0.82 ,0.88) ae 
五 星 级 [0.9,1] [0.88.1] re 


另外 ,笔者 对 其 中 一 篇 情报 资源 进行 个 例 分 析 , 样 
为 了 验证 文本 语义 内 容 特征 的 融入 对 情报 价值 计 | 例如 图 7 所 示 。 针 对 这 篇 资源 , 原 有 的 基于 外 部 特征 


算 发 挥 了 重要 作用 ,笔者 使 用 训练 集 和 测试 集 的 全 部 方法 情报 价值 得 分 为 0, 而 BERT 模型 得 到 的 情报 价值 
数据 共计 22 450 条 进行 测试 ,统计 各 个 星 级 下 的 情报 预测 得 分 为 0.999 978 423 ,综合 外 部 特征 和 文本 语义 
数量 分 布 。 基于 文本 语义 内 容 特 征 的 情报 价值 计算 模 内 容 特 征 的 模型 的 情报 价值 预测 逢 竺 分 为 0. 799 9, 通 
型 和 基于 外 部 特征 的 情报 价值 计算 模型 的 统计 结果 对 “| 过 对 情报 文本 进行 分 析 ,发现 本 文 的 方法 可 以 将 原本 
比分 析 见 图 6。 基于 外 部 特征 的 情报 价值 计算 模型 预测 为 不 重要 的 网 

基于 外 部 特征 的 情报 价值 计算 模型 的 阔 值 划分 是 | 络 资源 挖掘 出 来 。 笔 者 认为 外 部 特征 如 情报 来 源 的 权 
在 多 个 领域 下 通过 测试 监测 到 的 资源 重要 度 分 布 比例 | 成 性 虽 然 _ 定 程度 上 可 以 反映 网 络 科技 信息 的 情报 价 
而 设 定 的 。 从 图 6 可 以 看 出 ,对 于 能 源 领域 而 言 , 此 阔 | 入 但 是 有 情报 价 信 的 网 络 科技 信息 仍然 及 可 能 潜 世 
os 人 
在 一 星 级 和 二 星 级 ,无 法 对 网 络 科技 信息 的 情报 价 

进行 有 效 的 区 分 ,很 难 从 大 量 信息 中 挑选 出 有 情报 价 eee 
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INE : 科学 家 发 明 可 折 又 石墨 烯 电池 。 外 媒 称 ， 日 前 刊登 在 英国 《自然 能 源 》 杂 志 上 的 一 项 研究 成 果 显示 ， 科 学 家 利用 此 前 的 
发 现 创造 出 了 一 种 能 够 存储 能 量 的 新 型 石墨 烯 折 垒 装置。 据 西班牙 《世界 报 》 网 站 2 月 17 日 报道 ，2004 年 ， 来 自 英国 曼彻斯特 
大 学 的 两 名 研究 人 员 安 德 烈 - 海 姆 和 康 斯 坦 丁 诺 沃 肖 洛 夫 ， 从 石墨 上 剥离 出 非常 薄 的 石墨 烯 碳 层 。 事 实证 明 ， 超 落 的 石墨 烯 具 

有 和 柔韧 性 ， 是 良好 的 热 和 电导 体 ， 比 纸 更 轻 ， 却 比 钢 坚硬 200 倍 。 报 道 称 ， 在 第 一 阶段 的 研究 和 分 类 之 后 ， 围 绕 石墨 烯 的 研究 


开始 停滞 不 前 。 石 墨 烧 的 实际 使 用 也 举步维艰 ， 这 在 很 大 程度 上 是 因为 其 令 人 着 迷 的 主要 特性 之 一 一 超 强硬 度 也 使 其 很 难 加 工 。 


不 过 ， 近 几 年 石墨 烯 再 次 成 为 焦点 。2018 年 ， 美 国 麻 省 理工 学 院 的 西班牙 科学 家 巴 勃 罗 .哈里 略 - 埃 雷 罗 团 队 发 现 ， 当 两 层 石墨 
烯 以 一 个 “神奇 角度 ” 缠 扭 在 一 起 时 ， 就 会 表现 出 非常 规 的 超 导 电 性 。 报 道 称 ， 由 此 ， 一 条 全 新 的 研究 路 线 被 打开 了 。 如 今 ， 
英国 伦敦 大 学 学 院 的 科学 家 利用 此 前 的 发 现 创造 出 一 种 能 够 存储 能 量 的 新 型 石墨 烯 折 垒 装置。 这 种 超级 电容 器 最 多 可 以 180 度 
对 折 而 不 损失 性 能 ， 并 且 在 经 过 5000 次 充电 后 仍 可 保持 97.8% 的 电容 。 这 种 超级 电容 器 的 尺寸 为 6 厘米 ， 由 两 个 电极 组 成 ， 中 
间 的 胶片 被 用 作 传递 电荷 的 介质 。 研 究 人 员 已 经 利用 这 种 装置 成 功 点 亮 了 数 十 个 LED 灯 。 新 成 果 解决 了 电池 制造 中 反复 出 现 的 
问题 : 难以 在 小 空间 中 存储 大 能 量 。 研 究 人 员 指出 : “我 们 采用 了 能 使 我 们 的 超级 电容 器 在 具有 高 功率 密度 的 同时 又 具有 高 能 
量 密度 的 材料 。 通 常情 况 下 ， 只 具备 其 中 一 个 特征 是 可 以 实现 的 ， 但 同时 具备 两 个 特征 无 疑 是 一 个 重大 进展 。 


图 7 情报 资源 样 例文 本 


4_ 应 用 效果 评估 


六 笔者 选取 了 能 源 领 域 科技 信息 监测 平台 上 监测 的 
项 这 500 条 数据 作为 测试 数据 集 ,然后 分 别 采用 基于 
名 特征 的 情报 价值 计算 方法 和 本 文 提出 的 综合 性 情 
振 侈 值 计算 方法 进行 评分 ,最 后 按照 各 自 情报 星 级 划 
人 了 乏 准 得 到 对 应 的 星 级 。 情 报 的 目的 是 被 利用 ,满足 
用 更 的 需要 ,解决 问题 。 不 同 领域 拥有 其 不 同 的 需求 
与 重 征 ,什么 样 的 网 络 科技 信息 更 具有 情报 价值 ,应 该 
AATRE ARRE ER A 
科研 用 户 相 比 ,专家 用 户 对 情报 价值 的 判断 更 准确 , 评 
俩 水平 更 稳定 。 因 此 针对 特定 领域 情报 的 价值 应 用 效 
奈良 售 , 需 要 由 该 领域 内 的 专家 进行 。 由 此 ,笔者 洲 请 
中 转 科 学 院 武汉 文献 情报 中 心 能 源 领 域 团队 的 5 位 专 
BILGE 500 条 数据 进行 星 级 评价 , 取 平 均 星 级 。 这 5 
位 时 家 都 是 能 源 领 域 科技 信息 监测 平台 的 使 用 者 ,其 
中 三 位 专家 为 长 期 从 事先 进 能 源 科技 情报 研究 的 研究 
,还 有 两 位 专家 为 具有 博士 背景 的 一 线 科研 工作 人 
员 ,他 们 对 能 够 精准 判断 有 情报 价值 的 能 源 领域 网 络 
科技 信息 有 着 迫切 的 需求 。 评 价 标准 采用 完全 认可 、 
比较 认可 比较 不 认可 ,完全 不 认可 4 个 等 级 来 表示 通 
过 两 种 计算 方法 得 出 的 评价 结果 同 领域 专家 评价 结 


u Bn 


3 


表 3 评价 星 级 结果 对 比分 析 
比较 不 认可 ”完全 不 认可 


情报 价值 计算 方法 完全 认可 /% 比较 认可 /% 


/% /% 
基于 外 部 特征 10 62 23 5 
本 文 提出 方法 20 67 11 2 


如 表 3 所 示 , 基 于 外 部 特征 的 计算 方法 比较 认可 
以 上 占 72% ,而 本 文 提出 的 计算 方法 比较 认可 以 上 占 
87% ,提高 了 15% ,因此 , 相 比 基于 外 部 特征 的 情报 计 
算 方法 ,本 文 提出 的 综合 性 情报 计算 方法 在 实际 应 用 
中 更 能 够 使 广大 科研 用 户 认可 满意 。 同 时 该 评估 结果 
存在 一 定 的 不 足 , 例 如 ,专家 组 人 数 有 限 , 代 表 性 不 够 
全 面 ;不 同 专 家 的 个 人 学 识 水 平和 主观 需求 不 一 样 导 
致 评估 结果 有 倾向 性 ;测试 数据 量 不 足 导致 可 能 的 数 
据 误 差 。 


5 结语 


笔者 综合 考虑 情报 外 部 特征 与 文本 内 容 特征 , 利 
用 深度 学 习 BERT 方法 构建 了 基于 文本 语义 内 容 特 征 
的 情报 价值 计算 模型 ,从 而 对 网 络 科 技 信息 的 情报 价 
值 进行 判断 ,利用 深度 学 习 模 型 的 预测 输出 完成 打分 ， 
并 结合 基于 情报 外 部 特征 的 原始 计算 方法 得 到 最 终 的 
综合 评价 得 分 。 结 果 显 示 , 基 于 文本 语义 内 容 特 征 的 


果 的 认可 耦合 度 。 其 中 ,完全 认可 是 指 两 者 评价 星 
级 完全 一 致 ,用 0 表示 ;比较 认可 指 两 者 评价 的 星 级 
相差 一 个 等 级 ,用 1 表示 ;比较 不 认可 是 指 两 者 评价 
的 星 级 相差 两 个 及 以 上 等 级 ,用 2 表示 ;完全 不 认可 
是 指 两 者 评价 的 星 级 相差 三 个 及 以 上 等 级 ,用 3 表 
示 。 笔 者 通过 上 述 两 种 计算 方法 得 出 的 星 级 结果 和 
专家 评估 的 星 级 结果 进行 对 比分 析 , 其 对 比 结 果 如 
K3 所 示 : 


情报 价值 计算 模型 可 以 对 情报 进行 有 效 的 星 级 区 分 ， 
弥补 了 基于 情报 外 部 特征 的 原始 计算 方法 中 星 级 区 分 
度 差 的 问题 。 与 仅 基 于 外 部 特征 的 原始 计算 方法 相 
EE ,本文 所 提出 的 综合 性 情报 计算 方法 能 够 更 加 有 效 
地 识别 出 有 人 情报 价值 的 网 络 科技 信息 ,在 实际 应 用 中 
也 能 够 很 好 地 满足 科研 人 员 的 需求 。 在 后 续 研 究 中 ， 
将 主要 进行 以 下 研究 工作 : 

(1) 情 报价 值 计算 语 料 的 精炼 。 训 练 集 的 质量 决 
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RR, 刘欢 , TRE, 等 . 基于 深 
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度 学 习 的 网 络 科技 信息 情报 价值 计算 a KV m 公信 期 H 


定 了 深度 学 习 模型 的 实用 效果 ,研究 将 针对 训练 语 料 ， 
改进 语 料 构建 策略 ,完成 精炼 工作 ,根据 模型 的 实际 测 
试 效果 ,循环 迭代 ,形成 更 有 区 分 度 的 有 情报 价值 网 络 
科技 信息 和 无 情报 价值 网 络 科技 信息 。 
(2) 扩 充 应 用 领域 。 研 究 将 根据 不 同学 科 领 域 的 


语言 特点 与 用 户 需 求 ,尝试 构建 具有 领域 特点 的 情报 
价值 计算 模型 。 
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Research on the Web Technology Information Value Calculation Method Based on Deep Learning 
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Abstract: | Purpose/significance | In view of the problem that it’s difficult for researchers to find valuable in- 
formation from large amounts of scientific and technological information in the Web, this paper constructs a compre- 
hensive calculation method for information value. It can calculate the information value of Web technology information 
and help researchers find Web technology information of information value quickly and accurately. | Method/ 
pPocess | Taking overall consideration of the external feature and textual semantic feature of the information, this pa- 
sper used deep learning (pretrained language model) BERT to construct information value calculation model based on 
“The textual semantic feature, used the predictive output of the deep learning model to complete the scoring, and com- 
ed the original calculation method of the external feature of the information to get the final information value score. 
eyesult/ conclusion ] The experimental results show that the information value calculation model based on the textual 
Geinantic feature can rank the information to different levels according to their information value score, which makes 
ap for the problem of poor star differentiation in the original calculation method only based on the external feature of 
GR information. And the final comprehensive evaluation results show that the information value calculation model pro- 
; posed in this paper can also meet the needs of researchers in the practical application. 
s= Keywords: Web technology information information value calculation textual semantics BERT 
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